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采用 寞 党 检测 的 技术 机 会 识别 方法 研究 


翟 东升 郭 程 张 杰 李 登 杰 
(北京 工业 大 学 经 济 与 管理 学 院 ”北京 100124) 


摘要 :【 目的 ] 为 探索 一 种 准确 而 及 时 地 识别 技术 机 会 的 方法 ， 提 出 一 种 基于 蜡 常 检测 技术 识别 技术 机 会 的 框架 。 
【方法 ] 通 过 构建 相似 度 矩 阵 进行 多 维 太 度 分 析 , 基于 多 种 异常 点 检测 算法 识别 出 潜在 技术 机 会 专利 , 结合 TRIZ 
的 技术 系统 进化 法 则 从 洪 在 技术 机 会 专利 中 挖掘 出 技术 机 会 。[ 结果 】 获 取 激 光 光 刻 技 术 2000 年 -2015 年 的 德 
温 特 专利 数据 ,对 该 领域 不 同 阶段 的 技术 机 会 进行 识别 , 分 析 结 果 显 示 , 通过 此 框架 识别 出 的 前 两 个 阶段 的 技 
术 机 会 就 是 下 一 阶段 的 主流 技术 , 同时 , 改进 后 的 极 紫 外 光 刻 技术 可 能 成 为 下 一 代 激 光 光 刻 领 域 的 主流 技术 之 
一 。【 局 限 ] 利用 TRIZ 判定 技术 机 会 存在 一 定 的 主观 性 , 识别 准确 度 有 待 进一步 提高 。[ 结论 ] 基于 异常 检测 的 
技术 机 会 识别 方法 可 以 有 效 地 识别 出 技术 机 会 ， 有 助 于 提高 识别 技术 机 会 的 及 时 性 。 
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在 科学 技术 飞速 发 展 的 今天 , 创新 能 力 已 经 成 为 
衡量 企业 竞争 力 的 一 个 重要 因素 。 而 作为 技术 创新 的 
重要 基础 ,技术 机 会 越 来 越 受到 企业 乃至 整个 行业 的 
重视 ,如 何 尽 可 能 早 地 发 现 技 术 机 会 , 把 握 正确 的 技 
术 方 向 , 往往 决定 了 企业 未 来 发 展 的 成 败 。 因此， 以 技 
术 机 会 理论 为 基础 ， 从 数据 中 挖掘 出 可 能 反映 未 来 技 
术 方 向 的 技术 机 会 , 可 以 为 企业 的 技术 创新 活动 提供 
方向 ， 具 有 重要 的 意义 。 

专利 文献 作为 科技 创新 成 果 的 重要 载体 和 表现 形 
式 , 其 内 容 蕴 涵 了 技术 创新 的 前 沿 信 息 。 据 世界 知识 
产权 组 织 统计 , 世界 上 的 新 技术 、 新 发 明 , 有 90% 至 
95% 记 录 在 专利 文献 中 , 而 专利 公报 中 约 有 “80% 的 内 
容 未 曾 刊 载 于 其 他 专业 期 刊 或 学 术 论文 等 技术 文献 资 
料 中 站。 由 于 专利 数据 具有 易 获 取 、 数 据 相 对 完整 等 
特点 , 故常 用 专利 数据 测度 一 定时 期 内 的 技术 创新 状 
况 与 技术 发 展 水 平 。 因 此 ， 本文 选择 专利 作为 研究 的 
切入 点 ， 以 专利 作为 研究 对 象 探讨 技术 机 会 的 问题 。 
本 研究 运用 多 种 异常 检测 算法 , 结合 TRIZ 理论 中 的 


了 中 


技术 系统 进化 法 则 识别 潜在 的 技术 机 会 这 对 于 技术 
机 会 识别 是 一 种 新 的 尝试 。 


2 国内 外 研究 现状 


国外 学 者 对 于 技术 机 会 的 研究 起 步 较 早 。1974 年 ， 
美国 斯 坦 福 大 学 的 Schwartz 教授 提出 技术 创新 机 会 
(Technology Innovation Opportunity) 的 概念 ， 并 将 其 表 
述 为 能 够 带动 某 产业 领域 创新 活动 或 使 产业 研发 方向 
发 生 转 折 的 关键 技术 趾 。20 世纪 90 年 代 , 美国 佐治 亚 
理工 学 院 教授 Porter 等 提出 “技术 机 会 ”一 词 ， 其 领导 的 
技术 政策 与 评价 中 心 (Technology Policy and Assessment 
Center) 联 合 一 些 企业 及 组 织 开发 技术 机 会 分 析 (TOA) 
软件 ， 基 于 数据 并 辅 以 计算 机 相关 技术 开展 信息 挖掘 
工作 中 ,1996 年 , 汉城 国立 大 学 工业 工程 部 的 专家 Yoon 
等 进行 了 一 项 有 关 技 术 机 会 理论 方法 的 研究 ， 主 要 介 
绍 了 一 种 基于 关键 词 的 形态 分 析 方法 所。 近 几 年 , 一 些 
国外 学 者 利用 不 同 的 方法 开展 了 技术 机 会 识别 的 研究 。 
2009 年 ，Lee 等 构造 基于 关键 词 的 专利 地 图 , 将 地 图 中 
的 空白 点 视 为 可 能 的 潜在 技术 机 会 ,进行 技术 创新 活 
动 的 识别 申 。Yoon 等 提出 一 种 基于 SAO 结构 识别 技术 
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机 会 的 方法 , 通过 SAO 结构 量化 专利 的 相似 程度 , 使 
用 异常 检测 算法 识别 可 能 代表 技术 机 会 的 离 群 专利 。 
Lee 等 提出 一 种 两 阶段 专利 分 析 方 法 ， 先 基于 专家 构建 
技术 属性 -应 用 矩阵, 识别 基本 的 技术 机 会 , 然后 抽取 
专利 的 A-O 结构 , 挖 据 出 未 被 专家 识别 的 属性 或 者 应 
用 , 识别 出 新 的 技术 机 会 中 ,Yoon 等 结合 形态 分 析 和 本 
文 挖掘 ,基于 现 有 技术 进行 技术 机 会 识别 四。Yoon 等 则 
从 已 存在 的 技术 或 者 产品 的 角度 出 发 ， 从 专利 中 获取 
产品 、 技术 和 功能 的 结构 信息 , 利用 技术 或 者 产品 之 间 
的 语义 功能 相似 度 识别 潜在 技术 机 会 中 。 

国内 学 术 界 较 早 对 技术 机 会 开展 研究 的 是 中 国 管 
理科 学 院 的 李 保 明教 授 , 他 认为 技术 机 会 是 指 企业 提 
供 具有 较 大 应 用 价值 的 新 技术 的 可 能 性 , 并 从 技术 、 
经 济 两 个 角度 对 其 加 以 概括 ""。 李 辉 等 结合 技术 创新 
活动 的 发 展 方向 , 认为 技术 机 会 包括 两 个 方面 : 以 前 
未 出 现 的 新 技术 和 对 己 有 技术 的 改良 \ 发 展 和 创新 "1。 
黄 鲁 成 等 认为 技术 机 会 通常 会 在 一 个 长 期 存在 的 重大 
技术 障碍 被 克服 之 后 出 现 ， 主 要 表现 为 新 产品 的 涌现 
及 创新 集群 的 形成 等 四 。 此 外 ， 张 妍 则 从 哲学 视角 出 
发 ， 对 技术 机 会 的 来 源 、 定 义 、 发 现 等 多 个 方面 进行 
阐述 和 …。 近 几 年， 国内 学 者 尝试 了 多 种 方法 对 技术 机 
会 进行 预测 。 吕 一 博 等 将 IPC 作为 技术 机 会 关键 词 , 构 
建 技术 机 会 可 视 化 识别 图 谱 , 基于 图 谱 得 出 技术 机 会 
的 所 在 领域 中。 潘 东 华 等 借鉴 技术 预测 和 知识 发 现 的 
相关 理论 ， 建立 关键 技术 、 技 术 前 沿 和 技术 趋势 三 个 
视角 的 分 析 框 架 , 并 且 通 过 共 词 分 析 、 突 现 词 分 析 和 
聚 类 时 序 图 谱 进 行 分 析 "。 马 婷 婷 等 从 系统 的 角度 出 
发 ， 基 于 技术 传递 系统 ,建立 了 一 个 从 技术 分 析 、 竞 争 
环境 分 析 到 潜在 市 场 分 析 的 三 层 分 析 架 构 ""。 汪 雪 锋 
等 提出 一 种 融合 数据 挖掘 和 形态 分 析 的 创新 导 图 构建 
方法 , 通过 “ 鱼 骨 图 ”和 “ 云 线 图 ”对 形态 矩阵 进行 解读 ， 
绘制 创新 导 图 站。 任 智 军 等 通过 构建 基于 数据 挖掘 的 
技术 机 会 发 现 模型 ， 对 新 兴 技 术 及 技术 成 熟 度 进行 预 
测 和 。 郭 俊 芳 等 基于 文本 挖掘 和 SAO 链 语 义 分 析 , 提 
出 一 种 新 型 的 技术 形态 识别 方法 , 考虑 了 关键 概念 间 
的 关系 , 更 准确 地 构建 了 技术 形态 结构 5"。 总 体 来 说 ， 
现 有 关于 技术 机 会 的 研究 主要 从 已 有 一 定数 量 的 技术 
或 者 产品 出 发 ， 对 未 来 的 技术 机 会 做 出 预测 。 本 文 认 
为 ， 对 于 技术 机 会 的 识别 , 不 仅 要 关注 技术 的 发 展现 
状 及 发 展 轨迹 , 同时, 应 该 重视 技术 机 会 识别 的 及 时 
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性 , 在 技术 机 会 形成 的 早期 对 其 进行 发 掘 。 因 此 , 本 文 
利用 异常 检测 和 TRIZ 的 技术 系统 进化 法 则 进行 技术 
机 会 的 识别 ， 提 高 预测 技术 机 会 的 及 时 性 。 


3 ”基于 异常 检测 的 技术 机 会 识别 


3.1 异常 检测 理论 

异常 检测 的 目标 是 发 现 与 大 部 分 其 他 对 象 不 同 的 
对 象 。 通 常 ， 异常 对 象 被 称 为 离 群 点 (Outlier)， 因 为 在 
数据 的 散布 图 中 , 它们 远离 其 他 数据 点 。 根 据 Hawkins 
的 异常 点 定义 , 异常 点 是 一 个 观测 值 , 它 与 其 他 观测 
值 的 差别 如 此 之 大 ,以 至 于 怀疑 它 是 由 不 同 的 机 制 产 
生 的 中 。 而 技术 机 会 是 在 某 技术 领域 中 新 发 现 的 、 以 
前 未 曾 出 现 过 的 技术 , 或 者 是 对 现 有 技术 的 发 展 、 改 
进 和 创新 它 和 现 有 的 主流 技术 有 很 大 的 不 同 , 因此 ， 
本 文 认为 , 在 一 定时 期 内 某 领 域 的 技术 机 会 存在 于 异 
常 点 中 , 可 以 通过 异常 检测 的 方法 找 出 与 主流 技术 有 
着 明显 不 同 的 专利 , 在 这 些 专利 中 , 就 有 可 能 出 现 促 
进 技术 创新 的 专利 ， 从 而 得 出 技术 机 会 。 

异常 检测 有 三 种 基本 方法 : 非 监督 的 、 监 督 的 和 
半 监 督 的。 它们 的 主要 区 别 是 类 标号 (异常 或 正常 ) 可 
以 利用 的 程度 请。 由 于 技术 机 会 事先 是 未 知 的 ,因此 
本 文采 用 非 监 督 的 异常 检测 算法 。 

本 文采 用 三 种 异常 检测 算法 ， 即 基于 局 部 异常 因 
子 (LOF) 的 异常 检测 算法 ,基于 K 均值 (K-means) 的 异 
常 检 测算 法 和 基于 聚 类 (DBSCAN) 的 异常 检测 算法 。 
由 于 专利 的 分 布 特征 是 未 知 的 , 并 且 不 同 领域 的 专利 
的 分 布 也 是 不 一 样 的 ,， 因此 , 需要 不 同 的 异常 检测 算 
法 识别 具有 不 同 特征 的 专利 分 布 。K 均值 算法 简单 并 
且 可 以 用 于 各 种 数据 类 型 ,但 需要 事先 确定 类 的 个 数 ， 
而 在 一 般 情 况 下 ,类 的 个 数 事 先 很 难 确 定 ， 而 且 它 不 能 
处 理 非 球形 簇 、 不 同 尺 寸 和 不 同 密度 的 簇 。LOF 和 
DBSCAN 算法 都 是 基于 密度 的 聚 类 算法 , 它们 能 够 处 
理 任意 形状 和 大 小 的 簇 , 克服 了 K 均值 算法 的 缺点 , 然 
而 ， 当 簇 的 密度 变化 太 大 时 , 也 会 对 聚 类 效果 产生 影响 。 


常 程度 的 评估 ,这 种 评估 称 为 离 群 点 得 分 。 一 个 专利 
的 离 群 点 得 分 越 高 ,说 明 此 专利 更 有 可 能 成 为 异常 
点 。 不 同 异 常 检测 算法 的 离 群 点 得 分 的 计算 方式 是 不 
同 的 。 基于 均值 的 异常 检测 算法 的 离 群 点 得 分 由 到 它 
的 K 个 最 近邻 的 平均 距离 决定 ™, 其 计算 公式 中 为 
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k 
Ddist(x, yi) 
Outlier “Scorek 均 值 (X) = i=! 


< 0 


其 中 ，dist(x,yi) 代表 专利 x 与 专利 y; 之 间 的 距离 ， 
专利 y; 是 距离 专利 x 前 K 个 最 近邻 专利 中 的 一 个 。 

基于 LOF 的 异常 检测 算法 的 离 群 点 得 分 由 局 部 可 达 
密度 (Local Reachable Distance) 决 定 ， 其 计算 公式 中 为 : 


1 


Irdy; = 2 
Minpts(D) reach — distyinpr (p, 0) (2) 
Pts(p) 


[Ninpts (Pp) 
专利 p 的 局 部 可 达 密 度 是 专利 p 与 其 MinPts- 邻 域 
的 平均 可 达 距 离 的 倒数 。 其 中 ,MinPts 是 用 户 指 定 的 
一 个 参数 ，reach-distyinpts(p,0) 代表 专利 p 与 专利 o 的 
可 达 距 离 ， 而 可 达 距 离 由 专利 o 的 距离 与 p 到 o 的 


距离 的 最 大 值 决定 。|Ninps(p)| 是 p 的 邻 域 中 邻居 的 
数目 。 专 利 p 的 离 群 点 得 分 定义 为 : 
Lrdyinps(0) 
; osNwinpstp) Ird sp, 
Outlier _Scoreror(p)= 和 Go (p) G) 
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基于 DBSCAN 的 异常 检测 算法 的 离 群 点 得 分 是 
该 专利 的 密度 与 它 的 最 近邻 专利 的 平均 密度 之 比 请 ]。 
其 计算 公式 四 为: 


一 
distan ce(x,y) 
Dyencxt) (4) 


density(x, k) -| NG 可 
density(x, k) 
density(y, k) 
yeN(x,k) NGCoao| 


Onutlier _ ScorepB(X,k) = 


(5) 


其 中 ，density(x,k) 是 专利 x 的 密度 ，|N(x,)| 代 
表 专 利 x 的 k- 最 近邻 集合 的 大 小 ; 离 群 点 得 分 越 高 ， 


则 说 明 专利 x 的 异常 程度 越 大 。 
3.2 ”技术 机 会 识别 模型 的 框架 

本 文 基于 专利 文献 数据 , 构建 专利 -关键 词 矩 阵 ， 
计算 专利 之 间 的 相似 度 ; 对 专利 相似 度 矩 阵 进行 多 维 
尺度 分 析 并 可 视 化 , 得 到 专利 基于 相似 距离 的 二 维 坐 
标 ; 使 用 多 种 异常 检测 算法 组 合 的 方法 , 识别 出 异常 
2 结合 技术 系统 进化 法 则 从 中 识别 出 潜在 技术 

会 , 构建 技术 机 会 识别 模型 ， 如 图 1 所 示 : 


习 一 文本 预 处 理 “ |] < |。 专利 检索 
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专家 判别 
图 1 


(1) 专利 相似 矩阵 的 构建 

本 文 从 专利 摘要 部 分 抽取 相应 的 关键 词 , 构建 存 
在 映射 关系 的 专利 -关键 词 矩 阵 (P-K 和 矩阵 )， 将 专利 文 
本 表示 为 空间 向 量 的 形式 ， 从 而 计算 专利 的 相似 度 。 

向 量 空间 模型 (Vector Space Modal) 的 基本 思想 是 
将 文本 表示 成 一 个 由 特征 项 构成 的 向 量 ， 特 性 项 通常 
是 一 个 关键 词 , 词 与 词 之 间 没 有 相关 性 5 。 将 专利 文本 
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DI[ 专 利 数据 库 


号 
构建 相似 下 阵 


多 维 尺度 分 析 


了 基于 密度 LOF 


eS 基于 距离 聚 类 K-means 
异常 专利 识别 基于 密度 聚 类 DBSCAN 
异常 检测 算法 
模型 框架 
通过 向 量 空间 模型 的 形式 来 表示 , 需要 进行 分 词 、 停 用 


词 处 理 和 关键 词 选取 这 三 个 主要 步骤 。 由 于 本 文 所 涉及 
的 数据 源 都 为 英文 专利 文本 ,因此 分 词 处 理 相对 简单 ， 
根据 空格 、 符 号 和 段落 对 专利 文本 进行 分 词 , 得 到 词 或 
词组 ; 完成 分 词 处 理 后 ， 需 要 进行 停 用 词 处 理 ， 如 “a”、 
“and”、“then”、“of* 这 类 词 出 现 的 频率 很 高 , 会 对 文本 
的 特征 表示 产生 很 大 的 干扰 ， 因 此 需要 对 其 进行 过 滤 ; 
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关键 词 的 选择 是 构建 向 量 过 程 中 最 重要 的 部 分 ， 然 而 ， 
仅仅 通过 上 述 文本 挖掘 的 方法 抽取 出 来 的 关键 词 可 能 
无 法 准确 地 描述 技术 特征 , 因此 , 在 筛选 的 过 程 中 , 专 
家 的 判断 也 发 挥 着 十 分 重要 的 作用 。 关 键 词 被 抽取 之 
后 , 合适 的 关键 词 就 会 通过 专家 判断 留 下 来 ， 而 无 法 反 
映 专 利 特征 的 关键 词 会 被 丢弃 。 关 键 词 向 量 如 下 所 示 : 
vi= (thi, th, ta, thin ) (6) 

其 中 ，vi 代 表 第 i 个 专利 ，tfi, 代表 第 i 个 专利 中 
第 n 个 关键 词 出 现 的 次 数 . 对 于 构建 好 的 P- 区 和 矩阵 , 通 
过 余弦 定理 计算 专利 之 间 的 相似 度 , 公式 如 下 : 


| 

最 后 ， 基 于 专利 的 相似 度 ， 就 可 以 将 专利 -关键 词 
和 矩阵 转换 为 专利 -专利 的 相似 度 和 矩阵 。 

(2) 多 维 尺度 分 析 

多 维 尺度 分 析 法 (MultiDimensional Scaling, MDS) 
的 主要 思想 是 将 含有 多 个 变量 的 复杂 数据 压缩 到 一 个 
低 维 空间 , 通过 计算 变量 之 间 的 距离 研究 各 变量 之 间 
的 结构 , 它 将 一 组 个 体 间 的 相 异 数据 经 过 MDS 转换 
成 空间 构图 ， 有 目 保 留 原 始 数 据 的 相对 关系 ?1。 

因此 , 使 用 MDS 算法 绘制 专利 相似 地 图 。 目 前 ， 
有 许多 MDS 算法 , 如 PREFSCAL，PROXCAL 和 
ALSCAL。 本 文 利 用 ALSCAL 进行 多 维 尺 度 分 析 , 通 
常 使 用 应 力 值 V(0<V<1) 和 拟 合 指数 RSQ 作为 衡量 
MDS 结果 的 指标 。 通 常 V<0.2 是 可 接受 的 , RSQ 值 在 
0.6 以 上 是 可 接受 的 , 具体 判定 方式 如 表 1 所 示 : 

表 1 MDS 分 析 结 果 评 价 表 


(7) 


应 力 值 (V) 容 差 范围 MDS 分 析 效 果 
0.4<V=<1 很 差 
0.2<V<0.4 差 
0.1<V<0.2 一 般 
0.05<V<0.1 好 
0.025<V<0.05 很 好 
0<V<0.025 完美 


因此 , 在 使 用 MDS 分 析 时 , 应 当 将 应 力 值 容 差 
范围 控制 在 0.1 以 下 , 使 MDS 分 析 的 结果 达到 好 或 
者 很 好 。 

本 文 基于 专利 相似 度 和 矩阵 进行 多 维 尺 度 分 析 ,， 得 
到 相似 专利 地 图 ， 以 及 专利 在 二 维系 中 的 位 置 坐标 。 
通过 多 维 尺 度 分 析 , 可 以 将 专利 之 间 相 似 性 作为 判断 
依据 , 也 可 以 将 专利 基于 相似 距离 在 二 维 坐标 中 进行 
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定位 , 为 下 文中 的 各 个 异常 检测 算法 奠定 了 基础 。 

(3) 技术 机 会 识别 

分 别 用 三 种 异常 检测 算法 对 专利 进行 异常 点 的 
识别 , 得 到 异常 专利 点 。 对 于 这 些 专 利 , 还 不 能 认为 其 
是 技术 机 会 , 因为 其 中 可 能 会 有 不 符合 技术 发 展 规律 
的 噪声 专利 。 因此 , 本文 基 于 TRIZ 理论 中 的 技术 系统 
进化 法 则 对 其 进一步 识别 。 该 进化 法 则 包括 完备 性 法 
则 、 能 量 传递 法 则 、 协 调 性 法 则 、 提 高 理想 度 法 则 、 
动态 性 进化 法 则 、 子 系统 不 均衡 进化 法 则 、 向 微观 级 
进化 法 则 、 向 超 系统 进化 法 则 , 它们 指出 了 技术 系统 进 
化 发 展 的 规律 和 宏观 的 模式 与 方向 , 反映 了 技术 系统 
发 展 过 程 中 会 经 历 的 具体 阶段 和 进化 顺序 中 1。 

因此 , 考虑 对 异常 专利 的 具体 技术 内 容 进 行 分 析 ， 
结合 TRIZ 的 技术 系统 进化 法 则 识别 技术 机 会 。 首 先 ， 
异常 检测 算法 会 将 专利 进行 聚 类 ,得 到 不 同 大 小 的 专 
利 复 ,， 对 非 异 常 点 的 专利 簇 进行 分 析 , 得 到 现 阶段 的 
主流 技术 ; 然后 ,对 异常 专利 点 进行 分 析 , 若 某 一 个 
异常 专利 的 技术 不 完全 等 同 于 主流 技术 , 并 且 从 主流 
技术 向 异常 专利 的 技术 方向 进行 演变 的 路 径 符合 TRIZ 
中 的 任意 一 条 进化 法 则 ， 则 可 以 认为 它 是 潜在 的 技术 
机 会 ; 若 不 符合 , 则 将 此 专利 交 由 专家 进行 判定 。 


4 ”实验 及 结果 分 析 


4.1 数据 来 源 

以 激光 光 刻 技术 为 检索 对 象 ， 从 技术 领域 、 技 术 
手段 和 技术 效果 等 方面 构建 检索 表达 式 , 通过 国际 专 
利 分 类 表 (PC) 对 检索 领域 进行 限制 ,基于 查 全 率 和 召 
回 率 对 检索 结果 进行 评估 ， 当 查 全 率 和 召回 率 均 高 于 
90% 则 认为 检索 结果 符合 要 求 ， 得 到 该 技术 领域 的 专 
利文 献 , 这 些 专利 数据 包括 专利 号 、 申 请 日 期 、 专 利 
标题 、 摘 要 ,权利 要 求 等 内 容 。 

本 研究 以 德 温 特 数据 库 为 数据 源 , 检索 表达 式 为 
TS=(("i-line" or "Argon fluoride" or AF or "Krypton 
fluoride"” or KF or "extreme ultraviolet” or 
Photolithography) and semiconductor* and ("laser" or 
pulse*)) and IP=(G* or C* or H*), 时 间 范 围 限 定 为 2000 
年 1 月 1 日 到 2015 年 12 月 31 日 , 在 德 温 特 数据 库 检 
索 并 筛选 相关 专利 527 件 , 通过 相关 文献 的 查阅 对 该 技 
术 领 域 的 技术 发 展 情况 进行 分 析 , 将 其 划分 为 三 个 时 
间 段 : 

(1) 2000-2004 年 专利 共计 72 件 ; 


(2) 2005-2009 年 专利 共计 191 件 ; 

(3) 2010-2015 年 专利 共计 264 件 。 

各 个 时 间 段 专利 分 布 情况 及 技术 发 展 趋势 如 表 2 
所 示 : 


表 2 激光 光 刻 技术 在 半导体 制造 业 中 的 发 展 趋势 
阶段 专利 数量 普遍 使 用 技术 下 一 代 技 术 
1 72 i-line&KrF ArF 
2 191 KrF&ArF EUV 
3 264 ArF&EUV 


4.2 ”专利 相似 度 的 计算 及 可 视 化 

为 了 计算 专利 文本 之 间 的 相似 度 , 首先 需要 构建 
向 量 空间 模型 ,将 专利 文本 表示 为 向 量 的 形式 ， 即 构 
建 P-K( 专 利 -关键 词 ) 矩 阵 。 通 过 对 专利 摘要 文本 进行 
分 词 、 停 用 词 处 理 , 得 到 相应 的 关键 词 ; 然后 基于 专家 
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判断 ， 筛选 出 能 够 代表 该 技术 特征 的 关键 词 ， 去 除 不 
相关 的 词汇 , 得 到 最 终 的 特征 项 , 构建 专利 文本 的 向 
量 空间 模型 。 表 3 为 部 分 基于 激光 光 刻 技术 领域 专利 
文本 构建 的 P-K 矩阵。 

表 3 2000 年 -2003 年 专利 -关键 词 矩 阵 ( 部 分 ) 


light . Ne Photo Wave 
irradiation 的 
SOUICe Tesistfilm length 
EP1113005 1 1 1 
EP1126320 1 
EP1167349 2 2 1 
EP1184723 1 
EP1343052 1 | 1 1 


针对 构建 好 的 P-K 和 矩阵， 基于 余弦 定理 计算 专利 
文本 之 间 的 相似 度 并 得 到 专利 相似 度 和 矩阵 。 表 4 为 部 
分 激光 光 刻 技术 专利 之 间 的 相似 度 对 称 和 矩阵 。 


表 4 2000 年 -2003 年 专利 相似 度 对 称 和 矩阵 (部 分 ) 


EP1113005 EP1126320 EP1167349 EP1184723 EP1199603 
EP1113005 1 0.211850857 0.270765 0 0.109985 
RE EP1126320 0.211850857 1 0.222277 0 0.060193 
一 EP1167349 0.270765181 0.222277112 1 0 0.246183 
OO EP1184723 0 0 0 1 0 
A | EP1199603 0.109985336 0.060192927 0.246183 0 1 


采用 ALSCAL 算法 进行 多 维 尺度 分 析 ， 因 此 要 将 
相似 和 矩阵 转化 为 相 异 矩阵 ( 即 用 1 减 去 相似 矩阵 )。 将 


高 维 的 专利 信息 映射 到 二 维 平 面 , 图 2 是 三 个 阶段 专 
利 分 布 的 散 点 图 。 
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(a) 第 一 阶段 (2000-2004) 
图 2 
4.3 ”技术 机 会 识别 
对 于 三 个 阶段 的 专利 ,分 别 使 用 基于 LOF 的 异常 
检测 、 基 于 K-means 的 异常 检测 和 基于 DBSCAN 的 
异常 检测 三 种 方法 进行 异常 专利 的 识别 , 结果 如 图 3 
所 示 ; 然后 , 基于 TRIZ 的 技术 系统 进化 法 则 对 异常 专 
利 的 内 容 进行 分 析 , 识别 出 技术 机 会 。 
对 第 一 阶段 的 72 条 专利 进行 异常 检测 ， 基 于 LOF 


(b) 第 二 阶段 (2005-2009) 


三 个 阶段 的 专利 分 布 图 


(0) 第 三 阶段 (2010-2015) 


的 异常 检测 结果 如 图 3(a) 所 示 , 红色 圈 内 的 专利 为 异常 
点 ， 即 为 异常 专利 , 检测 出 的 异常 专利 为 JP2003147474， 
US2003186524, WO2003014830, US2003027349,， 
US2002001957, US2003087188; 基于 K-means 的 异常 


检测 结果 如 图 3(b) 所 示 , 不 同 颜色 的 点 代表 不 同 的 类 ， 
在 此 次 聚 类 中 , 设 定 K=4， 即 将 激光 光 刻 技术 的 相关 
专利 聚 为 4 类 , 分 别 用 黑色 、 绿 色 、 蓝 色 和 红色 的 专 
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(a) 基于 LOF 的 异常 检测 


(b) 基于 
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FK-means 的 异常 检测 


人 
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(c) 基于 DBSCAN 的 异常 检测 


图 3 第 一 阶段 的 异常 检测 结果 


利 点 代表 , 红色 圈 内 的 点 代表 偏离 簇 类 中 心 的 异常 点 ， 


US2003107720， JP2000063441,， US2002086222, 
US2002113035; 通过 DBSCAN 算法 对 专利 进行 异常 
检测 ,结果 如 图 3(c) 所 示 , 在 设 定 半径 参数 为 1, 密度 
闵 值 MinPts 为 15 的 情况 下 ,相关 专利 被 聚 成 三 类 , 分 
别 以 不 同 的 颜色 和 形状 进行 标注 。 同 时 , 三 角形 的 点 
为 聚 类 的 核心 点 ， 而 圆 点 (红色 圈 内 ) 则 为 聚 类 的 边缘 
点 , 在 这 里 认为 它 是 偏离 聚 类 中 心 的 异常 点 ， 这 些 检 
测 出 的 异常 专利 点 为 : 卫 2003147474，US2003186524， 
US2003107720， JP2000063441,， US2002086222, 
US2002113035。 对 以 上 三 种 异常 检测 算法 的 结果 进行 
汇总 , 结果 如 表 5 所 示 : 


表 5 第 一 阶段 异常 专利 识别 结果 


LOF K-means DBSCAN 
JP2003147474 JP2003147474 JP2003147474 
US2003186524 US2003186524 US2003186524 
WO2003014830 US2003107720 US2003107720 
US2003027349 JP2000063441 JP2000063441 
US2003000920 US2002086222 US2003000920 
US2003087188 US2003000920 US2002113035 


常 专 利 ,， 通过 分 析 这 些 专 利 的 详细 内 容 ,发 现 专利 
US2003000920 提出 一 种 新 的 刻 蚀 方法 ,能够 防止 光 
致 抗 蚀 剂 图 案 的 变形 , 改善 光 刻 的 可 靠 性 ,并且 通 过 
注入 毛 元 素 的 电子 束 的 方式 硬化 光 致 抗 蚀 剂 ， 提 高 光 
刻 胶 图 案 的 抗 蚀 性 。 而 影响 光 刻 质量 的 主要 因素 和 难 
点 之 一 就 是 刻 蚀 方法 ,该 专利 在 刻 乌 方 法 中 有 新 的 突 
破 , 总 体 上 符合 子 系统 的 不 均衡 进化 法 则 ， 即 系统 的 
进化 速度 受 最 慢 的 子 系统 制约 ; 同时 , 该 专利 提出 使 
用 ArF 准 分 子 激光 器 , 由 于 光 刻 系统 的 分 辩 率 与 激光 
的 曝光 波长 成 反比 , 毛 的 曝光 波长 相 比 于 之 前 主流 曝 
光 技 术 GKrF) 有 更 短 的 波长 ,有 利于 提高 分 辩 率 ,符合 
提高 理想 度 进 化 法 则 ， 即 技术 系统 会 朝 着 不 断 提 高 系 
统 理想 度 的 方向 进化 。 另 外 , 专利 US2003087188 也 
提出 了 使 用 能 发 出 波长 为 193 纳米 的 激光 的 ArF 准 分 
子 激光 器 ， 提 高 分 辨 率 ,也 符合 提高 理想 度 进 化 法 
则 。 而 其 他 异常 专利 并 没有 按照 TRIZ 的 技术 进化 法 
则 的 路 径 发 展 , 并且 经 过 专家 判定 , 不 认为 它们 是 技 
术 机 会 。 

第 一 阶段 的 分 析 可 以 看 出 , 未 来 光 刻 领域 的 技术 
会 向 使 用 波长 更 短 的 ArF 准 分 子 激光 器 的 方向 发 展 。 


~ 


由 表 5 可 见 , 三 种 异常 检测 算法 共识 别 出 10 个 异 
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同样 ， 对 第 二 阶段 的 专利 进行 异常 检测 ,结果 如 图 4 
所 示 : 


AD 
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(c) 基于 DBSCAN 的 异常 检测 


第 二 阶段 的 异常 检测 结果 


4 中 红色 圈 内 的 标 出 的 点 即 为 异常 专利 点 。 对 
三 种 异常 检测 算法 的 结果 进行 汇总 ， 如 表 6 所 示 : 


表 6 第 二 阶段 异常 专利 识别 结果 


LOF K-means DBSCAN 
US2007123623 US2007123623 
JP2007220949 JP2007220949 US2007123623 
EP1843201 EP1843201 JP2007220949 
WO2007088862 WO2007088862 EP1843201 
JP2004231858 EP1693709 WO2007088862 
JP2005003863 JP.2005203649 


第 二 阶段 共识 别 出 了 8 个 异常 专利 。 通 过 分 析 这 
8 条 专利 的 详细 内 容 , 发 现 专利 JP2007220949 提出 了 
一 种 用 于 光 刻 的 极 紫 外 光源 装置 ， 有 一 个 激光 束 发 生 
器 , 可 以 产生 激光 束 来 电离 氧 。 极 紫外 线 拥 有 更 加 短 
的 波长 ， 相 对 于 之 前 的 主流 技术 中 使 用 的 ArF 准 分 子 
激光 器 , 波长 从 193 纳米 下 降 到 了 13.5 纳米 ,可 以 明 


ul 04 
二 U2 这 汉王 "Bs | 021 Se: 
i ~ 0.0| "ps 人 :00 "Bs 
ee “和 位 0 
CI 4 Wr 
全 -02 00 ， 02 04 -02 
(a) 基于 LOF 的 异常 检测 
图 5 
= 表 7 第 三 阶段 异常 专利 识别 结果 
《3 LOF K-means DBSCAN 
JP2015143208 JP2015143208 
JP2015063470 JP2015063470 
US2015056541 US2015056541 JP2015143208 
WO2014189055 WO2014189055 ccJP2015063470 
JP2012185472 JP2012185472 US2015056541 
JP2013082893 JP2013003512 WO2014189055 
JP2013235251 JP2014040407 
WO2015122470 JP2013136559 


第 三 阶段 共识 别 出 11 条 异常 专利 。 通 过 分 析 这 
11 条 专利 的 详细 内 容 , 发 现 专利 US2015056541 提出 
使 用 极 紫外 光 刻 技术 的 空白 掩 膜 用 于 制造 半导体 器 
件 , 它 的 优点 是 将 对 于 掩 膜 的 损害 和 污染 降 到 最 低 ， 
提高 极 紫外 光 刻 掩 膜 的 可 靠 性 。 虽 然 极 紫外 线 光 刻 技 
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第 三 阶段 的 异常 检测 结果 
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显 提高 分 辨 率 , 符合 提高 理想 度 进化 法 则 ,同时 , 专利 
EP1693709 提出 一 种 抗 蚀 图 案 增 厚 材料 , 适用 于 形成 
微小 的 空间 图 案 , 突破 曝光 极限 ; 并 且 抗 蚀 图 案 形 成 
过 程 中 包括 用 紫外 线 或 者 电离 氧 照射 抗 蚀 图 案 的 整个 
表面 。 由 于 曝光 波长 小 于 100 纳米 时 ， 只 通过 缩短 波 
长 的 方法 已 经 很 难 更 进一步 提高 分 辨 率 ,， 而 此 专利 通 
过 增 厚 材料 突破 曝光 极限 , 通过 其 他 方面 的 发 展 来 提 
高 分 辨 率 , 使 整个 系统 更 加 协调 , 符合 子 系统 协调 性 进 
化 法 则 。 因 此 , 将 这 两 条 专利 视 为 潜在 的 技术 机 会 。 而 
其 他 异常 专利 经 由 专家 判断 , 认为 其 并 不 是 技术 机 会 。 

从 第 二 阶段 的 分 析 可 以 看 出 ,未 来 光 刻 领域 的 技 
术 会 向 波长 明显 短 于 之 前 技术 的 EUV( 极 紫外 光 刻 ) 技 
术 的 方向 发 展 。 

最 后 ， 对 第 三 阶段 的 专利 进行 异常 检测 ， 如 图 5 
所 示 , 红色 圈 内 标 出 的 点 即 为 异常 专利 。 对 三 种 异常 
检测 算法 的 结果 进行 汇总 ， 如 表 7 所 示 。 
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(c) 基于 DBSCAN 的 异常 检测 


术 已 经 将 波长 降 至 13.5 纳米 ,同时 也 伴随 着 一 些 其 他 
的 问题 , 制约 着 其 分 辩 率 的 提高 。 而 此 专利 提出 掩 膜 
的 改进 方案 , 从 男 一 个 方面 提高 光 刻 技术 的 精度 , 符 
合子 系统 协调 性 进化 法 则 。 因 此 , 将 它 视 为 潜在 技术 
机 会 。 同 时 , 将 其 他 异常 专利 交 由 专家 判定 ,专家 认 
为 , 专利 WO2014189055 提出 一 种 极 紫外 线 激光 发 生 
装置 的 等 离子 LPP) 系 统 , 具有 目标 生成 控制 单元 , 用 
于 控制 平均 值 压 力 控制 器 ,有 利于 生成 稳定 的 极 紫外 
线 激光 。 其 也 可 能 成 为 潜在 的 技术 机 会 。 

通过 对 第 三 阶段 技术 机 会 的 识别 , 可 以 看 出 , 未 
来 光 刻 技术 领域 的 技术 主要 还 会 是 极 紫外 光 刻 技术 ， 
但 是 由 于 其 波长 明显 缩短 所 带 来 的 其 他 问题 ,通过 提 
高 其 他 方面 性 能 的 技术 可 能 成 为 下 一 阶段 的 主流 技 
术 ,， 如 对 撼 膜 技术 的 改造 。 

经 过 上 述 分 析 , 通过 异常 检测 方法 和 TRIZ 的 技术 
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系统 进化 法 则 ， 从 第 一 阶段 和 第 二 阶段 的 专利 中 识别 
出 可 能 成 为 技术 机 会 的 相关 专利 , 并 且 与 激光 光 刻 技 
术 的 发 展 进程 做 对 比 ， 发 现 所 识别 出 的 技术 确实 是 下 
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加 


术 机 会 的 识别 , 结果 显示 ， 从 第 一 阶段 和 第 二 阶段 中 
识别 出 的 潜在 技术 机 会 确实 是 下 一 阶段 的 主流 技术 之 
一 ,说明 该 模型 在 一 定 程 度 上 可 以 识别 出 技术 机 会 ; 


一 阶段 的 主流 技术 之 一 ， 因此, 该 方法 在 一 定 程度 上 可 
以 用 来 识别 潜在 的 技术 机 会 ,通过 对 当前 专利 中 异常 
专利 点 的 发 现 和 判断 , 得 出 未 来 可 能 的 发 展 方向 。 
同时 ， 从 上 述 结果 中 可 以 发 现 , 三 种 异常 检测 算 
法 对 于 技术 机 会 的 挖掘 所 产生 的 效果 是 不 同 的 。 在 第 
一 阶段 的 技术 机 会 识别 中 , LOF 算法 的 表现 要 优 于 另 
外 两 种 算法 ,发掘 出 了 另外 二 者 未 识别 出 的 异常 专利 ， 
并 且 该 异常 专利 确实 是 潜在 的 技术 机 会 ; 在 第 二 阶段 
的 技术 机 会 识别 中 , K-means 算法 的 表现 更 加 优秀 ,多 
识别 出 一 个 潜在 技术 机 会 ; 而 在 第 三 阶段 的 识别 中 ， 


同时 , 对 第 三 阶段 的 专利 进行 技术 机 会 识别 , 发 现 激 
光 光 刻 未 来 的 技术 可 能 会 在 极 紫 外 光 刻 方向 ,并 且 对 
于 掩 膜 技 术 的 改进 可 能 是 一 个 技术 机 会 。 

同时 , 该 模型 存在 一 些 可 以 改进 的 方面 。 在 对 
TRIZ 的 技术 系统 进化 法 则 的 理解 上 , 不 同 专业 背景 
的 人 对 同一 个 进化 法 则 可 能 会 有 不 同 的 理解 ， 因 此 ， 
对 于 模型 中 从 异常 专利 到 技术 机 会 专利 的 识别 过 程 
中 , 会 存在 标准 不 一 的 问题 。 因 此 , 应 该 建立 一 套 规 
则 , 对 TRIZ 中 的 理论 和 专利 中 包含 的 技术 进行 更 加 
深入 的 挖掘， 实现 TRIZ 理论 和 专利 之 间 的 匹配 。 这 也 


三 种 算法 都 识别 出 两 个 潜在 技术 机 会 专利 。 由 于 三 种 
算法 在 计算 离 群 点 得 分 时 所 用 的 方法 不 同 ,， 导致 了 识 
别 效果 的 不 同 。K-means 算法 很 难处 理 非 球形 和 不 同 
大 小 的 簇 , 并 且 在 识别 密度 不 相同 的 簇 时 效果 很 差 ， 
但 是 它 可 以 发 现 不 是 明显 分 离 的 簇 ; 而 DBSCAN 算 法 
可 以 处 理 不 同 大 小 或 者 形状 的 簇 , 但 对 于 密度 不 相同 
的 簇 的 识别 效果 也 不 好 ; LOF 算法 定义 了 相对 密度 的 
概念 , 因此 有 利于 发 现 不 同 密度 区 域 的 异常 点 。 第 一 
阶段 的 专利 分 布 并 不 均匀 , 并 且 所 形成 的 簇 都 是 不 规 
则 形状 , 因此 LOF 算法 的 效果 相对 较 好 ; 第 二 阶段 的 
专利 分 布 稀 跑 且 不 均匀 , 但 是 其 中 一 个 潜在 技术 机 会 
专利 并 未 与 其 他 专利 明显 分 离 , 因此 K-means 算法 识 
别 出 了 该 异常 点 ; 而 第 三 阶段 的 专利 分 布 比较 均匀 ， 
密度 变化 并 不 明显 , 因此 三 种 异常 点 检测 算法 都 识别 
出 了 潜在 的 技术 机 会 。 

由 于 不 同 领域 的 专利 分 布 是 不 一 样 的 ， 即 使 在 同 
一 领域 , 不 同 阶 段 的 专利 分 布 特点 也 会 有 一 定 的 区 别 ， 
因此 , 在 进行 异常 专利 的 识别 时 , 应 该 考虑 多 种 异常 
检测 算法 , 在 不 同 特点 的 专利 分 布 中 更 加 全 面 地 识别 
出 异常 专利 。 


5 结 语 


本 文 基于 专利 文献 , 使 用 多 种 异常 检测 算法 识别 
出 异常 专利 , 并 且 基 于 TRIZ 的 技术 系统 进化 法 则 , 对 
异常 专利 进一步 分 析 , 得 到 符合 进化 法 则 的 异常 专利 ， 
即 潜在 的 技术 机 会 。 利 用 激光 光 刻 技术 领域 的 专利 进 
行 实证 研究 , 对 该 领域 发 展 的 三 个 阶段 的 专利 进行 技 
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是 未 来 需要 研究 和 改进 的 地 方 。 
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Identifying Technology Opportunities with Anomaly Detection 
Technique 


Zhai Dongsheng GuoCheng Zhang Jie LiDengjie 
(School of Economics and Management, Beijing University of Technology, Beijing 100024, China) 


Abstract: [Objective] This paper proposes a framework to effectively identify technology opportunities with anomaly 
detection technique. [Methods] First, we constructed a similarity matrix and conducted multidimensional scaling 
analysis. Second, we identified potential technology opportunity from patents based on a variety of anomaly detection 
algorithm. Finally, we extracted the possible breakthroughs with the help of TRIZ’s laws of technology system 
evolution. [Results] We analyzed patent data from the DII database and then identified technology opportunities in 
different phases of the laser lithography field. We found that technology opportunities identified by the proposed 
framework became mainstream technologies later. [Limitations] The objectiveness and accuracy of the new method 
needs to be improved. [Conclusions] The proposed framework based on anomaly detection could effectively identify 
technology opportunities. 
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